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倾向 评分 配 比 在 SPSS 软件 上 的 实现 
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摘要 :目的 研究 倾向 评分 配 比 法 在 SPSS 软件 上 的 实现 ,并 对 分 析 结 果 进 行 解释 。 方 法 通过 安装 与 SPSS 对 应 版 本 能 够 连接 的 


R 软 件 和 插件 ,以 及 实现 倾向 评分 配 比 需要 的 程序 包 , 在 SPSS AT 


ij 添加 PS Matching 模 块 ,然后 结合 实例 演示 如 何 使 用 模块 。 


结果 成 功 实现 了 评分 配 比 ,并 对 匹配 效果 给 出 直观 和 定量 的 统计 描述 与 评价 。 结 论 在 SPSS 软 件 中 ,可 以 较为 方便 地 实现 倾 


向 评分 配 比 。 
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Propensity score matching in SPSS 
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Abstract: Objective To realize propensity score matching in PS Matching module of SPSS and interpret the analysis results. 


Methods The R software and plug-in that could link with the corresponding versions of SPSS and propensity score matching 
package were installed. A PS matching module was added in the SPSS interface, and its use was demonstrated with test data. 


Results Score estimation and nearest neighbor matching was achieved with the PS matching module, and the results of 
qualitative and quantitative statistical description and evaluation were presented in the form of a graph matching. Conclusion 
Propensity score matching can be accomplished conveniently using SPSS software. 


Key words: propensity score; nearest neighbor matching; standardized difference; SPSS 


倾向 评分 (propensity score matching, PSM) Rt FE 
是 一 种 可 用 于 在 非 随 机 对 照 研 究 中 涉及 较 多 混杂 因素 
情况 下 做 因果 推断 的 方法 ,在 医学 ,心理 学 .社会 学 等 


从 对 照 组 中 为 处 理 组 中 的 每 个 个 体 寻 找 一 个 或 多 个 青 
景 特征 相同 或 相似 的 个 体 作为 对 照 ,最 终 两 组 的 混杂 因 
素 也 趋 于 均衡 可 比 "。 目 前 利用 倾向 评分 进行 配 比 的 


领域 的 应 用 日 趋 流行 ,但 目前 多 需要 编程 实现 ,从 而 限 
制 了 该 方法 的 普遍 使 用 。 目 前 非 统 计 专 业 人 员 最 党 使 
用 的 软件 SPSS 中 尚 无 现成 的 PS 配 比 模块 ,但 是 可 通过 
安装 有 关 插 件 获 得 点 击 式 分 析 模 块 ,包含 最 常用 的 
logistic 回归 中 和 最 邻近 匹配 > 实现 倾向 评分 配 比 和 其 他 
多 种 选项 ,如 卡 错 值 .共同 支持 域 . 重 复 匹 配 1:n 匹 配 
等 , 且 可 输出 详细 的 评价 匹配 效果 的 均衡 性 统计 量 和 图 
表 ", 本 文 拟 通 过 实例 展示 如 何在 SPSS 软件 上 实现 倾 
向 评分 匹配 。 


1 倾向 评分 配 比 原理 

倾向 评分 是 指 在 一 组 混杂 因素 条 件 下 ,一 个 观察 天 
象 接 受 某 种 处 理 的 可 能 性 ,其 大 小 可 以 通过 将 处 理 因 素 
作为 应 变量 ,其 他 混杂 因素 作为 自 变量 建立 Logistic 回 
归 模 型 来 估计 ”。 倾 向 评分 配 比 就 是 利用 倾向 评分 值 
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方法 较 多 ,PS 最 邻近 匹配 是 最 常用 的 一 种 方法 :首先 根 
据 协 变量 计算 倾向 评分 值 ,PS 值 在 0~1 之 间 ,表示 研究 
对 象 被 分 配 到 处 理 组 (或 者 对 照 组 ) 的 概率 "。 然 后 ,将 
两 组 观察 对 象 按照 倾向 评分 值 大 小 排序 ,从 处 理 组 中 依 
次 选 出 1 个 研究 对 象 ,从 对 照 组 中 寻找 倾向 评分 值 与 处 
理 组 中 最 相近 的 一 个 对 象 作为 配 比 个 体 。 如 果 对 照 组 
中 同时 有 2 个 或 2 个 以 上 倾向 评分 值 相同 的 个 体 , 则 按 
随机 的 原则 进行 选择 。 配 比 成 功 的 对 象 从 源 人 群 中 移 
去 ,然后 进入 下 一 个 处 理 对 象 的 配 比 过 程 , 直 到 处 理 组 
中 全 部 对 象 完 成 匹配 9。 为 确保 匹配 效果 ,可 设 定 卡 钳 
值 ; 当 处 理 组 和 对 照 组 样本 量 较 大 时 ,可 为 一 个 处 理 组 
对 象 匹 配 多 个 对 照 组 对 象 ;匹配 效果 可 通过 比较 处 理 组 
和 对 照 组 匹配 前 后 的 标准 化 差异 或 方差 比 , 当 标 准 化 差 
异 接近 0 或 方差 比 接近 1 时 ,提示 [ 匹 效果 良好 ,PSM 还 可 
提供 单个 变量 和 整体 在 组 间 的 均衡 性 检验 。 


2 SPSS 上 的 PS Matching 模 块 
2.1 在 SPSS 上 安装 PS Matching 模 块 
(用 户 可 以 在 http:Wwww.ibm.com/developerwo- 
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rks/spssdevcentral 找到 SPSS R 插件 进行 安装 ,并 在 
http://sourceforge.net/projects/psmspss/files/ 下 载 psm- 
atching 3.sSpe。 需 注意 不 同 的 SPSS 版 本 需要 安装 对 应 
HI SPSS R 插 件 :SPSS 18.0 及 之 前 的 版 本 无 法 安装 ， 
SPSS 19.0 对 应 R 2.10,SPSS 20.0 对 应 R 2.12.0 或 者 R 
2.12.1, SPSS 21.0 对 应 R 2.14.2。 安 装 成 功 后 ,PS 
Matching 模块 成 为 SPSS 沫 单 的 一 部 分 ,用 户 即 可 通过 
点 击 式 操作 实现 倾向 评分 估计 和 匹配 。 

(2) 打 开 SPSS, 按 如 下 顺序 点 击 Utilities --> 
Extension bbundle --> Install Extension bundle 然 后 找 
到 己 下 载 好 的 .spe 文 件 进行 安装 ,重启 SPSS。 

22 操作 方法 打开 SPSS, 点 击 Analyze 中 的 PS 
Matching, 弹 出 如 图 1 的 主 对 话 框 。 


qid Wale m m— 


1 PS Matching 模 块 的 主 操作 界面 


Fig.1 Main Dialog interface of the PS matching module. 


(1) Estimation Algorithm 倾向 评分 算法 ,有 
Logistic 回归 和 GAMlogit 两 种 选择 ; Matching 
Algorithm :匹配 算法 ,有 Nearest Neighbor Matching( 最 
邻近 匹配 ) , Full matching ( Sé & VE Hir ) "" fl Optimal 
matching( 最 优 匹 配 )3 种 方法 **;Discard Units Outside 
of Common Support: 删 除 在 共同 支持 域 以 外 的 观察 单 
位 ,程序 默认 none;Smooth Covariate: 在 广义 相 加 模型 
中 用 到 的 选项 。 

(2) ID Variable 选 入 序号 ;Binary treatment indi- 
cator(O-control, 1 -treatment) : 选 和 人 二 分 类 处 理 因素 ,并 
规定 0 为 对 照 组 ,1 为 处 理 组 ,量变 量 类 型 须 定义 为 尺度 
变量 ;Covariates: 选 入 用 于 计算 评分 的 协 变量 ;Addi- 
tional Covariates: 选 入 和 处 理 因素 无 关 的 协 变量 ( 注 : 一 
种 较 好 的 变量 选择 办 法 是 将 结局 变量 与 混杂 因素 构建 
二 分 类 logistic 回归 模型 ,进行 逐步 回归 ,进入 模型 的 变 
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TOW. Covariates IE VJ , ZI tr 4) 28 XE A, Additional 
Covariates TÉ] "" ) ;Exact Matching on(only for Nearest 
Neighbor) :根据 选 入 的 变量 对 个 体 进 行 精确 匹配 , 仅 适 
用 于 最 邻近 匹配 方法 。 

(3) 点 击 Plots and output, 出 现 如 图 2 对 话 框 。 
Plots 下 对 应 的 五 个 选项 依次 为 匹配 前 后 的 :评分 直方 
图 个体 匹配 图 ,标准 化 差异 直方 图 .各 协 变量 标准 化 差 
异 散 点 图 、 各 协 变量 匹配 前 后 变化 线 图 ; Resolution 
(PPI) :结果 窗 的 显示 比例 ;Output Datasets: 输 出 匹配 后 
的 数据 集 , 其 中 Matched cases 和 Paired cases 分 别 以 长 
型 和 宽 型 格式 输出 匹配 后 的 数据 集 ;Balance Statistics: 
均衡 性 统计 量 , 默 认 给 出 基本 统计 量 ,Detailed 中 可 选 是 
和 否 按 层 分 析 , 仅 适用 于 最 邻近 匹配 方法 。 


图 2 图 形 和 结果 界面 
Fig.2 Dialog of plots and output. 


(4) 点 击 Options, 出 现 如 图 3 对 话 框 。Matching 
order: 选 择 匹配 的 顺序 ,默认 从 最 大 评分 值 开 始 匹配 ; 
Allow replacement: 选择 是 否 进行 重复 匹配 ; 
Subclassification :选择 是 否 按照 评分 接近 程度 分 为 香干 
亚 分 类 ;Match one to many: 选 择 匹 配 比例 ;Caliper: 设 
定 卡 钳 值 ,默认 值 为 0.2。 


Dpions bw anri Riaghhcr — Dcbera Ur Hasidi Fársghiocr and Ceferus 国力 -src 


| pr BEA wea Enc at 
UEM 6n: 


dcm raptacacant C) Mach mas 


LE 


图 3 选项 界面 
Fig.3 Dialog of options. 
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3 实例 分 析 
3.1 数据 背景 

为 了 探讨 吸烟 对 冠 心 病 发 生 的 影响 ,对 26 例 冠 心 
病人 和 28 例 对 照 者 进行 病例 对 照 研究 ,各 因素 的 说 明 
WURI”, 


R1 冠 心病 8 个 可 能 的 危险 因素 与 赋值 
Tab.1 Possible risk factors and assignment of coronary heart 
disease 
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Factors Variables Score assignment 

Age (year) X1 <45=1, 45~=2, 55~=3, 65~=4 
Hipertension history X2 no=0, yes=1 

Family hsitory X3 no=0, yes=1 
Smoking X4 no=0, yes=1 
Hyperlipidemia history XS no=0, yes=1 

Animal fat intake X6 low=0, high=1 

BMI X7 <24=1, 24~=2, 26~=3 
A-type character X8 no=0, yes=1 
Coronay heart disease Y cotrol=0, disease=1 


32 操作 步骤 

以 "吸烟 ?为 处 理 因 素 , 除 冠 心病 以 外 的 其 余 变 量 为 
协 变量 构建 估计 PS 的 模型 ,如 图 4。 勾 选 plots 中 的 五 
个 图 , 勾 选 Output Datasets 中 的 paired cases (wide 
format) ,点 击 Detailed;options 中 设 定 卡 钳 值 Caliper 为 
0.2 ,其 余 默 认 ; 然 后 在 主 对 话 框 点 击 OK。 
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图 4 构造 倾向 评分 匹配 模型 


Fig.4 Construction of propensity score matching model. 


3.3 输出 结果 
3.3.1 基本 的 匹配 情况 本 例 中 处 理 组 个 体 数 大 于 对 照 
组 ( 表 2)。 
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表 2 样本 匹配 结果 
Tab.2 Sample Size of PS Matching 
Control Treated 

Al 13 41 

Matched 13 13 

Unmatched 0 28 

Discarded 0 0 


3.3.2 整体 均衡 性 检验 输出 结果 “Overall balance test" 
中 的 P=0.999, 显示 covariates 框 以 及 additional coc- 
ariates 框 中 选 和 的 变量 在 两 组 整体 间 均 衡 性 较 好 。 

3.3.3 匹配 后 的 均衡 性 度量 输出 结果 “Relative 
multivariate imbalance L1” 中 的 Ll measure ^ Zi] ii 
理论 上 介 于 0 和 1 之 间 。 和 匹配 前 相 比 ,匹配 后 的 结 
越 小 提示 匹配 效果 越 好 ,本 例 , 匹 配 后 的 LI1 统 计量 为 
0.769 小 于 匹配 前 0.878 ,提示 匹配 优良 。 

3.3.4 显示 匹配 后 不 均衡 的 变量 输出 结果 "Relative 
multivariate imbalance L1” P ,#|d|>0.25 提示 变 量 存在 
不 均衡 性 号 ,并 按 |d| 大 小 从 上 至 下 排序 给 出 , 若 在 SPSS 
的 PS 自 定义 对 话 框 选项 中 色 选 including interaction, 
表格 中 还 会 给 出 这 些 变 量 间 的 交互 项 及 二 次 项 在 处 理 
组 和 对 照 组 中 的 均 数 、 对 照 组 标准 差 .标准 化 均 差 等 
值 。 本 例 中 ,没有 变量 |d|>0.25, 从 而 认为 所 有 的 变量 在 
组 间 都 均衡 。 

3.3.5 各 个 变量 匹配 前 后 的 信息 给 出 处 理 组 .对照 组 
匹配 前 后 各 变量 的 均值 .对照 组 各 变量 的 标准 差 .匹配 
前 后 标准 化 均 数 差 的 变化 , 见 表 3。 

3.3.6 评分 分 配 图 从 图 中 可 以 大 致 推断 匹配 情况 的 好 
坏 。 在 倾向 评分 1:n 的 情况 下 ,图 5 中 每 个 点 的 大 小 表示 
权重 中 。 本 例 ,虽然 处 理 组 尚 有 较 多 未 能 匹配 ,但 是 获 
得 匹配 个 体 的 倾向 评分 比较 接近 。 因 而 匹配 效果 较 好 。 
3.3.7 标准 化 差异 变化 线 图 该 图 将 匹配 前 后 的 绝对 标 
准 化 差异 描 点 ,并 连 线 来 反映 差异 是 增加 还 是 减 小 , 线 
段 变 粗 表示 差异 增 大 ,从 图 6 可 知 ,大 部 分 个 体 标 准 化 
差异 减 小 ,只 有 一 个 变量 略 有 增加 。 

3.3.8 PS 分 布 直方 图 默认 情况 下 被 核 密 度 本 数 “估计 
覆盖 ,可 用 来 比较 配 比 前 后 评分 分 布 的 相似 度 ,并 提供 
共同 文 撑 域 面积 的 估计 , 若 匹 配 后 处 理 组 和 对 照 分 布 近 
似 ,提示 匹配 良好 。 由 图 7 可 见 ,匹配 较 好 。 

3.3.9 SD 分 布 直方 图 被 核 密度 函数 覆盖 ,可 用 于 比较 
匹配 前 后 变量 交互 项 二 次 项 标准 化 差异 变化 大 小 , 知 
匹配 后 的 标准 化 差异 集中 在 0 附近 ,提示 不 再 存在 系统 
差异 。 由 图 8 可 知 ,匹配 后 ,本 例 不 再 存在 系统 差异 ,下 
配 较 好 。 

3.3.40 单 变量 SD 散 点 图 给 出 各 协 变 量 匹配 前 后 的 标 
准 化 差异 , 若 匹 配 后 变量 对 应 点 落 在 0.0+0.25 之 间 , 则 
提示 变量 达到 均衡 。 由 图 9, 可 知 匹 配 良好 。 
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X3 完整 均衡 性 统计 量 


Tab.3 Detailed blance statistics 


Means Treated Means Control SD Control Std. Mean Diff. 
Covariates 
Before After Before After Before After Before After 
Propensity 0.807 0.621 0.608 0.608 0.183 0.183 1.102 0.072 
xl 2.512 2.000 2.000 2.000 0.577 0.577 0.632 0.000 
x2 0.488 0.231 0.154 0.154 0.376 0.376 0.660 0.152 
x3 0.488 0.615 0.538 0.538 0.519 0.519 -0.100 0.152 
x5 0.439 0.308 0.231 0.231 0.439 0.439 0.414 0.153 
x6 0.244 0.077 0.077 0.077 0.277 0.277 0.384 0.000 
x7 1.512 1.462 1.462 1.462 0.776 0.776 0.071 0.000 
x8 0.659 0.538 0.538 0.538 0.519 0.519 0.250 0.000 
Distribution of Propensity Scores 
Unmatched Treatment Units 
, 1.0 
(Ke z 
Matched Treatment Units £ 
2 08 
- 出 
3 
Matched Control Units E. 0.6 4 
3 
r S | 
8 0.44 
Unmatched Conrtol Units E 
5 
S 024 
a s 
< = — M T 
; i : | 0.04 
0.4 05 06 07 08 09 10 L : : 
Propensity Score AII data Matched data 


图 5 评分 分 布 


图 6 标准 化 差异 变化 线 图 


Fig.5 Dotplot of individual young adults in either 
matched or unmatched groups. Graph was produced 
using routines from the MatchIt package. 


Fig.6 Lineplot of standardized differences before 
and after matching. Graph was produced using 
routines of the MatchIt package. 
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图 7 PS 分布 直方 图 


Propensity Score 


Fig.7 Distribution of propensity scores of smoking(treated) and no smoking (control) before and after matching 


with overlaid kernel density estimate. Graph was produced using modified routines of the MatchlIt package. 
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Standardized differences before matching 


1:2 
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图 8 SD 分 布 直方 图 


Fig.8 Histograms with overlaid kernel density estimates 
of standardized differences before and after matching. 
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图 9 单 变量 SD 散 点 图 
Fig.9 Dotplot of standardized mean differences 


for all covariates before and after matching. 


观测 变量 的 矫正 是 数据 分 析 中 重要 的 一 部 分 ,因为 
混杂 因素 会 对 处 理 效应 的 估计 造成 影响 。 倾 向 评分 配 
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配 ,使 处 理 组 和 对 照 组 间 的 不 均衡 性 达到 最 小 化 甚至 完 
全 消除 ”。 目 前 倾向 评分 的 应 用 越 来 越 流行 ,但 并 未 在 
医学 ,心理 学 和 社会 学 以 及 其 他 一 些 领域 达到 广泛 应 
用 ,其 中 一 个 重要 的 原因 就 是 缺少 研究 者 都 能 普遍 使 用 
的 软件 ,而 SPSS 以 其 点 击 式 的 操作 和 直观 的 结果 一 直 
为 大 多 数 研 究 人 员 所 青睐 ,本 文 介绍 了 倾向 评分 模块 在 
SPSS 中 的 实现 ,并 提供 了 详细 的 操作 方法 和 结果 解 
释 。 虽 然 该 模块 尚 无 法 实现 一 些 倾向 评分 的 高 级 计算 
方法 ,但 可 满足 大 多 数 科研 工作 者 的 要 求 。 也 许 在 不 和 久 
的 将 来 ,SPSS 新 版 本 将 会 把 PSM 模 块 直接 纳入 软件 
中 ,并 提供 较为 全 面 的 计算 方法 。 
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